智能论文笔记

The optimality of word lengths. Theoretical foundations and an empirical study

Sonia Petrini , Antoni Casas-i-Muñoz , Jordi Cluet-i-Martinell , Mengxue Wang , Christian Bentz , Ramon Ferrer-i-Cancho

分类：自然语言处理

2022-08-22

人类语言中发现的最强大的模式之一是ZIPF的缩写定律，即更短的单词的趋势。自ZIPF开创性研究以来，该定律被视为压缩的体现，即形式的长度最小化 - 自然交流的普遍原则。尽管对语言进行优化的说法已经变得时尚，但衡量语言优化程度的尝试却相当稀缺。在这里，我们证明压缩在无例外的大量语言中表现出来，并且独立于测量单位。这两个单词长度都可以在书面语言的字符以及口语的持续时间中检测到。此外，为了衡量优化程度，我们得出了一个随机基线的简单公式，并提出了两个分数归一化的分数，即，它们相对于最小值和随机基线都进行了归一化。我们分析了这些和其他分数的理论和统计优势和缺点。利用最佳分数，我们首次量化了语言中单词长度的最佳程度。这表明当单词长度以字符测量时，语言平均被优化至62％或67％（取决于源），当单词长度及时测量时，平均而言，平均而言，平均而言，平均而言，平均而言，平均而言，平均至65％。通常，口语持续时间比字符中的书面单词长度更优化。除了这里报告的分析外，我们的工作还铺平了衡量其他物种发声或手势的最佳程度的方法，并将其与书面，口语或签名的人类语言进行比较。

translated by 谷歌翻译

Linear-time calculation of the expected sum of edge lengths in planar linearizations of trees

Lluís Alemany-Puig , Ramon Ferrer-i-Cancho

分类：自然语言处理

2022-07-12

依赖图被证明是一个非常成功的模型，可以代表人类语言句子的句法结构。在这些图中，被广泛接受为树，顶点是单词，而弧线连接了句法依赖的单词。这些依赖关系的趋势已使用随机基线来证明边缘或其变体的长度之和。无处不在的基线是投影订单中的预期总和（其中边缘不交叉，句子的词根不涵盖任何边缘）。结果表明，可以以$ o（n）$时间计算所述期望值。在本文中，我们重点介绍平面顺序（可以涵盖词根单词），并提出两个主要结果。首先，我们显示了平面布置中的预期总和与投影安排中的预期总和之间的关系。其次，我们还得出了$ o（n）$ - 时间算法来计算边缘长度总和的预期值。这两个结果源于本文的另一项贡献，即平面的表征，鉴于句子，它产生了平面排列的数量或有效的算法，以生成单词的均匀随机平面排列。我们的研究铺平了为使用随机平面线性化作为随机基线的随机平面线性化而复制过去的研究研究的道路。

translated by 谷歌翻译

The Maximum Linear Arrangement for trees under projectivity and planarity

Lluís Alemany-Puig , Juan Luis Esteban , Ramon Ferrer-i-Cancho

分类：自然语言处理

2022-06-14

最大线性布置问题（MAXLA）包括从图$ g $的$ n $顶点查找映射$ \ pi $到最大化$ d _ {\ pi}（g）= \ sum_ {uv \ {uv \ {uv \ \ \在e（g）} | \ pi（u） - \ pi（v）| $。在这种情况下，顶点被认为位于水平线上，边缘在线上上方的半圆时绘制。存在限制安排的MaxLA的变体。在平面变体中，边缘交叉被禁止。在塑料树排列的投射变体中，是平面，根不能被任何边缘覆盖。在这里，我们提出$ o（n）$ - 时间和$ o（n）$ - 空间算法，这些算法可以解决树木的平面和射击maxla。我们还证明了最大投影和平面布置的几个属性。

translated by 谷歌翻译

The Linear Arrangement Library. A new tool for research on syntactic dependency structures

Lluís Alemany-Puig , Juan Luis Esteban , Ramon Ferrer-i-Cancho

分类：自然语言处理

2021-12-05

在依赖语法和定量语言学之间的十字路口中出现了新的和越来越多的定量依赖性语法。该领域的主要问题之一是句法依赖结构的统计模式。在树木银行中分组的这些结构是这些和相关领域的统计分析的来源;多年来设计的数十分是一个新行业的工具，用于搜索模式并执行其他类型的分析。这种度量的多种多数和他们的越来越复杂性需要共享用于执行此类分析的程序的源代码。但是，这些代码通常不与科学界共享，或者在未知标准之后进行测试。在这里，我们展示了一个新的开源工具，线性排列库（LAL），它迎合了尤其是缺乏经验的程序员的需求。此工具可以在单个语法依赖性结构，树班斯和TreeBanks集合上计算这些指标，易于使用，但具有极大的灵活性。 LAL设计为高效，易于使用（同时满足各级编程专业知识的需求），可靠（由于彻底测试），并从不同传统，地理区域和研究领域联合研究。

translated by 谷歌翻译

Dependency distance minimization predicts compression

Ramon Ferrer-i-Cancho , Carlos Gómez-Rodríguez

分类：自然语言处理

2021-09-18

依赖距离最小化（DDM）是一个熟悉的单词顺序原理。从理论上预测，DDM意味着压缩，即字长度最小化。这是二阶预测，因为它将原则与另一个原则相连，而不是在第一订单预测中的原则和表现形式。在这里，我们测试了具有由普通依赖性和曲面语法通用依赖性的并行的TreeBanks的并行集合的二阶预测。为了测试它，我们使用最近引入的分数，该得分对于广泛使用的依赖性距离以及广泛使用的数学和统计优势。我们发现当在音素中测量字位长度，独立于注释样式时，通过新分数确认预测，但是当在音节中测量字长时，而不是在字度中测量字。相比之下，最广泛使用的分数之一，即依赖关系距离的总和，无法确认预测，显示出对字令研究的原始依赖性距离的弱点。最后，我们的调查结果通过链接两个不同的组织，即语法（Word Order）和Word内部结构来扩展自然通信理论。

translated by 谷歌翻译

Shakebot: A Low-cost, Open-source Shake Table for Ground Motion Seismic Studies

Zhiang Chen , Devin Keating , Yash Shethwala , Aravind Adhith Pandian Saravanakumaran , Ramon Arrowsmith , Chris Madugo , Albert Kottke , Jnaneshwar Das

分类：机器人

2022-12-21

Our earlier research built a virtual shake robot in simulation to study the dynamics of precariously balanced rocks (PBR), which are negative indicators of earthquakes in nature. The simulation studies need validation through physical experiments. For this purpose, we developed Shakebot, a low-cost (under $2,000), open-source shake table to validate simulations of PBR dynamics and facilitate other ground motion experiments. The Shakebot is a custom one-dimensional prismatic robotic system with perception and motion software developed using the Robot Operating System (ROS). We adapted affordable and high-accuracy components from 3D printers, particularly a closed-loop stepper motor for actuation and a toothed belt for transmission. The stepper motor enables the bed to reach a maximum horizontal acceleration of 11.8 m/s^2 (1.2 g), and velocity of 0.5 m/s, when loaded with a 2 kg scale-model PBR. The perception system of the Shakebot consists of an accelerometer and a high frame-rate camera. By fusing camera-based displacements with acceleration measurements, the Shakebot is able to carry out accurate bed velocity estimation. The ROS-based perception and motion software simplifies the transition of code from our previous virtual shake robot to the physical Shakebot. The reuse of the control programs ensures that the implemented ground motions are consistent for both the simulation and physical experiments, which is critical to validate our simulation experiments.

translated by 谷歌翻译

SIRA: Relightable Avatars from a Single Image

Pol Caselles , Eduard Ramon , Jaime Garcia , Xavier Giro-i-Nieto , Francesc Moreno-Noguer , Gil Triginer

分类：计算机视觉 | 人工智能

2022-09-07

从单个图像中恢复人头的几何形状，同时对材料和照明进行分解是一个严重不良的问题，需要事先解决。基于3D形态模型（3DMM）及其与可区分渲染器的组合的方法已显示出令人鼓舞的结果。但是，3DMM的表现力受到限制，它们通常会产生过度平滑和身份敏捷的3D形状，仅限于面部区域。最近，使用多层感知器参数化几何形状的神经场获得了高度准确的全头部重建。这些表示形式的多功能性也已被证明可有效解开几何形状，材料和照明。但是，这些方法需要几十个输入图像。在本文中，我们介绍了Sira，该方法从单个图像中，从一个图像中重建了具有高保真度几何形状和分解的灯光和表面材料的人头头像。我们的关键成分是基于神经场的两个数据驱动的统计模型，这些模型可以解决单视3D表面重建和外观分解的歧义。实验表明，Sira获得了最新的状态导致3D头重建，同时它成功地解开了全局照明以及弥漫性和镜面反照率。此外，我们的重建适合基于物理的外观编辑和头部模型重新构建。

translated by 谷歌翻译

Machine learning in front of statistical methods for prediction spread SARS-CoV-2 in Colombia

A. Estupiñán , J. Acuña , A. Rodriguez , A. Ayala , C. Estupiñán , Ramon E. R. Gonzalez , D. A. Triana-Camacho , K. L. Cristiano-Rodríguez

分类：机器学习

2022-08-11

使用数学模型（例如易感性暴露于易感性的（SEIR）（SEIR），Logistic回归（LR））和一种称为多项式回归方法的机器学习方法进行了对哥伦比亚疾病共同19的分析研究。先前的分析已经对每天的病例，死亡，感染者和暴露于该病毒的人进行了分析，所有这些病例都在550天的时间表中所有人。此外，它使感染扩散的拟合详细介绍了较低的传播误差和统计偏差的最佳方法。最后，提出了四种不同的预防方案，以评估与该疾病有关的每个参数的比率。

translated by 谷歌翻译

Video-based Surgical Skills Assessment using Long term Tool Tracking

Mona Fathollahi , Mohammad Hasan Sarhan , Ramon Pena , Lela DiMonte , Anshu Gupta , Aishani Ataliwala , Jocelyn Barker

分类：计算机视觉

2022-07-05

掌握进行手术所需的技术技能是一项极具挑战性的任务。基于视频的评估使外科医生可以收到有关其技术技能的反馈，以促进学习和发展。目前，此反馈主要来自手动视频评论，该视频审查是耗时的，限制了在许多情况下跟踪外科医生进展的可行性。在这项工作中，我们引入了一种基于运动的方法，以自动评估手术病例视频饲料的手术技能。拟议的管道首先可靠地轨道轨迹，以创建运动轨迹，然后使用这些轨迹来预测外科医生的技术技能水平。跟踪算法采用了一个简单而有效的重新识别模块，与其他最新方法相比，它可以改善ID-开关。这对于创建可靠的工具轨迹至关重要，当仪器定期在屏幕上和屏幕外移动或定期遮盖。基于运动的分类模型采用最先进的自我发明变压器网络来捕获对技能评估至关重要的短期和长期运动模式。在体内（Cholec80）数据集上评估了所提出的方法，其中专家评级的目标技能评估对Calot三角解剖的评估被用作定量技能度量。我们将基于变压器的技能评估与传统的机器学习方法进行比较，并使用拟议的和最新的跟踪方法进行比较。我们的结果表明，使用可靠跟踪方法的运动轨迹对仅根据视频流进行评估的外科医生技能是有益的。

translated by 谷歌翻译

A Cascade Model for Argument Mining in Japanese Political Discussions: the QA Lab-PoliInfo-3 Case Study

Ramon Ruiz-Dolz

分类：自然语言处理

2022-07-04

RVRAIN团队解决了预算论点挖掘（BAM）任务，包括分类和信息检索子任务的组合。对于参数分类（AC），团队通过基于五级BERT的级联模型取得了最佳性能，并配有某些手工制作的规则。这些规则用于确定表达式是否为货币。然后，将每个货币表达归类为前提或在级联模型的第一级的结论。最后，每个前提都被归类为三个前提类别，每个前提分为两个结论类别。对于信息检索（即关系ID检测或RED），我们的最佳结果是通过基于BERT的二进制分类器的组合以及由货币表达和预算密集的嵌入组成的余弦的相似性来实现的。

translated by 谷歌翻译